Remote sensing imagery provides comprehensive views of the Earth, where different sensors collect complementary data at different spatial scales. Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $5.0\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $3.8$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
translated by 谷歌翻译
自我监督的表示学习的最新趋势集中在消除训练管道中的归纳偏见。但是,当可用数据有限时,归纳偏差在设置中可能很有用,或者提供对基础数据分布的更多见解。我们提出了空间注意(SPAN),该框架利用未标记的图像数据集中使用一致的空间和语义结构来指导视觉变压器的注意。 SPAN通过将注意力面罩从单独的变压器头正规化,以跟随语义区域的各个先验。这些先验可以从数据统计数据或域专家提供的单个标记样本中得出。我们研究了几种详细的现实情况,包括医学图像分析和视觉质量保证。我们发现,所产生的注意力面膜比从域 - 不合义预审进的掩码更容易解​​释。 SPAN可为肺和心脏分割产生58.7的地图改进。我们还发现,与结构域 - 不合稳定的预处理相比,我们的方法在将验证的模型转移到下游胸部疾病分类任务时会产生2.2个MAUC的改善。最后,我们表明,与域 - 不可屈服的预处理相比,跨越预处理会导致低数据表格中的下游分类性能更高。
translated by 谷歌翻译
自我监督学习中的最新作品通过以对象为中心或基于区域的对应目标进行预处理,在场景级密集的预测任务上表现出了强劲的表现。在本文中,我们介绍了区域对象表示学习(R2O),该学习统一了基于区域的和以对象为中心的预处理。 R2O通过训练编码器以动态完善基于区域的段为中心的蒙版,然后共同学习掩模中内容的表示形式。 R2O使用“区域改进模块”将使用区域级先验生成的小图像区域分组为较大的区域,这些区域倾向于通过聚类区域级特征对应对应对象。随着训练的进展,R2O遵循了一个区域到对象的课程,该课程鼓励学习区域级的早期特征并逐渐进步以训练以对象为中心的表示。使用R2O的表示形式导致了Pascal VOC(+0.7 MIOU)和CityScapes(+0.4 MIOU)的语义细分表现最先进的表现,并在MS Coco(+0.3 Mask AP)上进行了实例细分。此外,在对Imagenet进行了预审进之后,R2O预处理的模型能够超过Caltech-UCSD Birds 200-2011数据集(+2.9 MIOU)的无监督物体细分中现有的最新对象细分。我们在https://github.com/kkallidromitis/r2o上提供了这项工作的代码/模型。
translated by 谷歌翻译
准确地估算主要山区盆地中的积雪对于水资源经理来说至关重要,以便做出影响当地和全球经济,野生动植物和公共政策的决策。目前,此估计需要多个配备LIDAR的飞机飞行或原位测量值,两者均昂贵,稀疏和对可访问区域有偏见。在本文中,我们证明了来自多个,公开可用的卫星和天气数据源的空间和时间信息的融合,可以估算关键山区的积雪。我们的多源模型的表现优于单源估计值5.0英寸RMSE,并且优于稀疏的原位测量值的估计值1.2英寸RMSE。
translated by 谷歌翻译
随着全球气候变化影响影响世界的影响,需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者,许多努力集中在减少对碳源发电厂的依赖,并转向可再生能源,如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说,在定义太阳能的进一步扩展方面的策略方面很重要。在本文中,我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法,实现分类的精度为0.96,并且对于分割性能,IOU分数为0.82。
translated by 谷歌翻译
域泛化(DG)的主要挑战是克服多个训练域和看不见的测试域之间的潜在分布偏移。一类流行的DG算法旨在学习在训练域中具有不变因果关系的表示。但是,某些特征,称为\ emph {伪不变特征},可能是培训域中的不变性,但不是测试域,并且可以大大降低现有算法的性能。为了解决这个问题,我们提出了一种新颖的算法,称为不变信息瓶颈(IIB),该算法学习跨越训练和测试域的最小值的最小值。通过最大限度地减少表示和输入之间的相互信息,IIB可以减轻其对伪不变特征的依赖,这对于DG是期望的。为了验证IIB原则的有效性,我们对大型DG基准进行了广泛的实验。结果表明,在两个评估度量标准中,IIB的IIIb平均超过2.8 \%和3.8 \%的准确性。
translated by 谷歌翻译
最近对物体检测的自我监督预防方法在很大程度上专注于预先绘制物体探测器的骨干,忽略了检测架构的关键部分。相反,我们介绍了DetReg,这是一种新的自我监督方法,用于预先列出整个对象检测网络,包括对象本地化和嵌入组件。在预先绘制期间,DetReg预测对象本地化以与无监督区域提议生成器匹配本地化,并同时将相应的特征嵌入与自我监控图像编码器的嵌入式对齐。我们使用DETR系列探测器实施DetReg,并显示它在Coco,Pascal VOC和空中客车船基准上的Fineetuned时改善了竞争性基线。在低数据制度中,包括半监督和几秒钟学习设置,DetReg建立了许多最先进的结果,例如,在Coco上,我们看到10次检测和+3.5的AP改进A +6.0 AP改进当培训只有1%的标签时。对于代码和预用模型,请访问https://amirbar.net/detreg的项目页面
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
REED继电器是功能测试的基本组成部分,与电子产品的成功质量检查密切相关。为了为REED继电器提供准确的剩余使用寿命(RUL)估计,根据以下三个考虑,提出了具有降解模式聚类的混合深度学习网络。首先,对于REED继电器,观察到多种降解行为,因此提供了基于动态的$ K $ -MEANS聚类,以区分彼此的退化模式。其次,尽管适当的功能选择具有重要意义,但很少有研究可以指导选择。提出的方法建议进行操作规则,以实施轻松实施。第三,提出了用于剩余使用寿命估计的神经网络(RULNET),以解决卷积神经网络(CNN)在捕获顺序数据的时间信息中的弱点,该信息在卷积操作的高级特征表示后结合了时间相关能力。通过这种方式,lulnet的三种变体由健康指标,具有自组织地图的功能或具有曲线拟合的功能构建。最终,将提出的混合模型与典型的基线模型(包括CNN和长期记忆网络(LSTM))进行了比较,该模型通过具有两个不同不同降级方式的实用REED继电器数据集进行了比较。两种降解案例的结果表明,所提出的方法在索引均方根误差方面优于CNN和LSTM。
translated by 谷歌翻译
机器学习的最新进展导致人们对可解释的AI(XAI)的兴趣越来越大,使人类能够深入了解机器学习模型的决策。尽管最近有这种兴趣,但XAI技术的实用性尚未在人机组合中得到特征。重要的是,XAI提供了增强团队情境意识(SA)和共享心理模型发展的希望,这是有效的人机团队的关键特征。快速开发这种心理模型在临时人机团队中尤其重要,因为代理商对他人的决策策略没有先验知识。在本文中,我们提出了两个新颖的人类受试者实验,以量化在人机组合场景中部署XAI技术的好处。首先,我们证明XAI技术可以支持SA($ P <0.05)$。其次,我们研究了通过协作AI政策抽象诱导的不同SA级别如何影响临时人机组合绩效。重要的是,我们发现XAI的好处不是普遍的,因为对人机团队的组成有很大的依赖。新手受益于XAI提供增加的SA($ P <0.05 $),但容易受到认知开销的影响($ P <0.05 $)。另一方面,专家性能随着基于XAI的支持($ p <0.05 $)而降低,这表明关注XAI的成本超过了从提供的其他信息中获得的收益以增强SA所获得的收益。我们的结果表明,研究人员必须通过仔细考虑人机团队组成以及XAI方法如何增强SA来故意在正确的情况下设计和部署正确的XAI技术。
translated by 谷歌翻译